算法稳定性是一种学习理论的概念,其表示对输入数据的改变的程度(例如,删除单个数据点)可能会影响回归算法的输出。了解算法的稳定性属性通常对许多下游应用程序有用 - 例如,已知稳定性导致所需的概括性属性和预测推理保证。然而,目前在实践中使用的许多现代算法太复杂,无法对其稳定性的理论分析,因此我们只能通过算法在各种数据集上的行为的实证探索来尝试建立这些属性。在这项工作中,我们为这种“黑匣子测试”奠定了一个正式的统计框架,而没有任何关于算法或数据分布的假设,并在任何黑匣子测试识别算法稳定性的能力方面建立基本界限。
translated by 谷歌翻译
We present Muse, a text-to-image Transformer model that achieves state-of-the-art image generation performance while being significantly more efficient than diffusion or autoregressive models. Muse is trained on a masked modeling task in discrete token space: given the text embedding extracted from a pre-trained large language model (LLM), Muse is trained to predict randomly masked image tokens. Compared to pixel-space diffusion models, such as Imagen and DALL-E 2, Muse is significantly more efficient due to the use of discrete tokens and requiring fewer sampling iterations; compared to autoregressive models, such as Parti, Muse is more efficient due to the use of parallel decoding. The use of a pre-trained LLM enables fine-grained language understanding, translating to high-fidelity image generation and the understanding of visual concepts such as objects, their spatial relationships, pose, cardinality etc. Our 900M parameter model achieves a new SOTA on CC3M, with an FID score of 6.06. The Muse 3B parameter model achieves an FID of 7.88 on zero-shot COCO evaluation, along with a CLIP score of 0.32. Muse also directly enables a number of image editing applications without the need to fine-tune or invert the model: inpainting, outpainting, and mask-free editing. More results are available at https://muse-model.github.io
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
智慧城市利益的最新全球增长导致了数万亿美元用于研发的投资。这些连接的城市有可能建立技术和社会的共生,并在全球范围内彻底改变社会的生活,安全,生态可持续性和生活质量。智能城市结构的一些关键组成部分是连接的智能电网,自动驾驶汽车,联合学习系统,智能公用事业,大规模的公共交通和积极的监视系统。尽管前景令人兴奋,但如果不解决这种高度自动化和数据共享的潜在社会影响,这些技术及其后续集成就无法尝试。此外,协调如此多的不同任务的可行性将需要一个快速,可扩展,统一的框架。为此,我们提出了Faro2,这是一个完全重新构想的Faro1的继任者,它是从头开始建造的。 FARO2提供了与其前身相同的功能,它充当统一的生物识别API线束,可为异构生物识别软件提供无缝评估,部署和简单的管道创建。 FARO2还提供了完全声明的功能来定义和协调自定义机器学习和传感器管道,从而使过程在原本不兼容的硬件和网络中分布。 Faro2最终提供了一种方法,可以在线快速配置,热门塑料和扩展大型协调或联合系统,而不会中断维护。由于在智能城市中收集的许多数据都包含个人识别信息(PII),因此FARO2还提供内置工具和层,以确保跨分布式系统跨系统的安全和加密的流媒体,存储和访问PII数据。
translated by 谷歌翻译
基于分数的分歧已被广泛用于机器学习和统计应用。尽管他们的经验成功,但在将它们用于多模式分布时仍观察到了失明问题。在这项工作中,我们讨论了失明问题,并提出了一个新的分歧家庭,可以减轻失明问题。在密度估计的背景下,我们说明了我们提出的差异,与传统方法相比,报告的性能提高了。
translated by 谷歌翻译
深层神经网络如今成功地拟合了非常复杂的功能,但是对于推理而言,密集的模型开始非常昂贵。为了减轻这种情况,一个有希望的方向是激活网络稀疏子图的网络。该子图是由数据依赖性路由函数选择的,将输入的固定映射到子网(例如,专家(MOE)在开关变压器中的混合物)。但是,先前的工作在很大程度上是经验的,尽管现有的路由功能在实践中效果很好,但它们并没有导致近似能力的理论保证。我们旨在为稀疏网络的力量提供理论解释。作为我们的第一个贡献,我们提出了一个与数据相关的稀疏网络的形式模型,该网络捕获了流行体系结构的显着方面。然后,我们基于局部性敏感哈希(LSH)引入一个路由函数,使我们能够对稀疏网络近似目标函数的方式进行推论。在用我们的模型代表基于LSH的稀疏网络之后,我们证明稀疏网络可以匹配Lipschitz函数上密集网络的近似能力。在输入向量上应用LSH意味着专家在输入空间的不同子区域中插值目标函数。为了支持我们的理论,我们根据Lipschitz的目标功能定义了各种数据集,并且我们表明,稀疏网络在活动数量数量和近似质量之间具有良好的权衡。
translated by 谷歌翻译
已知DNN容易受到所谓的对抗攻击的攻击,这些攻击操纵输入以引起不正确的结果,这可能对攻击者有益或对受害者造成损害。最近的作品提出了近似计算,作为针对机器学习攻击的防御机制。我们表明,这些方法虽然成功地用于一系列投入,但不足以解决更强大,高信任的对抗性攻击。为了解决这个问题,我们提出了DNNShield,这是一种硬件加速防御,可使响应的强度适应对抗性输入的信心。我们的方法依赖于DNN模型的动态和随机稀疏来有效地实现推理近似值,并通过对近似误差进行细粒度控制。与检测对抗输入相比,DNNShield使用稀疏推理的输出分布特征。当应用于RESNET50时,我们显示出86%的对抗检测率为86%,这超过了最先进的接近状态的检测率,开销较低。我们演示了软件/硬件加速的FPGA原型,该原型降低了DNNShield相对于仅软件CPU和GPU实现的性能影响。
translated by 谷歌翻译
我们审查当前的解决方案和技术挑战,以实现自动语音识别,关键字发现,设备仲裁,语音增强和在多边形家庭环境中的来源本地化,以为Interspeech 2022特别会议提供背景,“信号处理和机器学习的挑战和机器,用于多个智能设备”。我们还确定了支持这些研究领域所需的数据集。根据评论和我们在多设备领域的研究经验,我们以对未来进化的前景结论
translated by 谷歌翻译
我们引入了综合学习,这是一个原则性的框架,将弱监督集成到机器学习模型的培训过程中。我们的方法共同训练末端模型和标签模型,该模型汇总了多个弱监督源。我们介绍了一个标签模型,该模型可以学会以不同的数据点的方式汇总弱监督源,并考虑训练期间终端模型的性能。我们表明,我们的方法在一组6个基准分类数据集中优于现有的弱学习技术。当出现少量标记的数据和弱监督时,性能的提高既一致又大,并且可靠地获得了2-5点测试F1分数在非整合方法中获得的增长。
translated by 谷歌翻译
为了防止青年自杀,社交媒体平台受到了研究人员的广泛关注。一些研究应用机器学习或基于深度学习的文本分类方法来对包含自杀风险的社交媒体帖子进行分类。本文复制了基于社交媒体的自杀性检测/预测模型。我们评估了使用多个数据集和不同最先进的深度学习模型(RNN-,CNN-和基于注意力的模型)检测自杀构想的可行性。使用两个自杀性评估数据集,我们通过定量和定性方式评估了28种输入嵌入的组合和4种常用的深度学习模型和5种预处理的语言模型。我们的复制研究证实,深度学习总体上可以很好地适用于基于社交媒体的自杀性检测,但这在很大程度上取决于数据集的质量。
translated by 谷歌翻译